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摘要 : [目的 /意义 ] 超 声 检查 是 判断 患者 病情 的 重要 依据 ,目前 主要 检查 数据 是 以 文本 形式 存在 。 本 文 提 
出 一 种 基于 超声 检查 数据 的 文本 结构 化 和 知识 网 络 构 建 方 法 ,为 进一步 挖 气 临 床 知识 黄 定 数据 基础 。[ 方 法 / 
过 程 ] 对 自然 语言 处 理 技术 在 超声 文本 环境 下 的 应 用 进行 收 进 , 和 包括 分 词 处 理 、 内 容 定位 、 结 构 化 识别 三 个 主要 
步骤 ,实现 对 超声 文本 的 切 分 与 标记 ,并 且 在 此 基础 上 建立 其 结构 化 知识 网 络 。[ 结果 /结论 ] 真实 数据 测试 结 
果 显 示 , 本 文 提 出 的 面向 超声 检查 文本 的 结构 化 方法 具有 较 好 的 性 能 表现 。 该 方法 可 以 实现 对 批量 超声 文本 
结构 化 网 络 的 自动 构建 ,能 够 反映 超声 文本 中 结构 化 内 容 的 层次 关系 与 属性 结构 等 潜在 知识 。 
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电子 病历 作为 一 种 专业 的 治疗 过 程 全 记录 载体 ， ”一 步 分 析 等 工作 。 本 文 根 据 超 声 数据 的 特点 ,基于 自 
是 六 前 医疗 实践 中 最 重要 的 文档 资料 ,也 是 临床 实践 。” 然 语言 处 理 技术 ( Natural Language Processing ，NLP ) ， 
的 知识 库 '"" 。 电 子 病历 中 的 专业 医学 检验 检查 数据 ， ”针对 性 地 提出 一 种 文本 分 析 与 结构 化 的 系统 方法 ,该 
是 医疗 大 数据 分 析 中 重要 的 客观 数据 资源 ,也 是 循 。 方法 能 够 实现 对 超声 文本 数据 较 高 精度 的 分 解 与 标 
证 国学 中 的 重要 数据 支撑 。 超声 检查 作为 临床 医学 中 ” 注 ,具备 自动 构建 知识 网 络 的 能 力 ,具有 重要 的 科学 意 
重 灾 的 检查 手段 ,具有 快速 到 观 判断 特定 部 位 病情 的 。 义 和 应 用 价值 。 
特点 。 然 而 ,与 大 多 数 的 医学 影像 检查 以 及 常规 的 检 er 
MD 不同 趣 声 检查 结果 在 数据 的 显现 形 式 上 仅 表 


现 因 医生 录入 的 文本 数据 。 文 本 数据 作为 一 种 非 结 构 自然 语言 处 理 一 直 是 文本 挖 抉 领域 中 的 基础 性 问 
化 数据 ,一 直 是 实现 精准 计算 机 数据 分 析 、 知 识 挖 掘 等 ” 题 。 在 海量 文本 中 挖掘 出 隐藏 的 知识 一 般 可 以 从 两 种 
工作 中 需要 解决 的 重要 问题 。 因 此 ,超声 检查 数据 的 。 ”层面 实现 :一 是 仅 对 特定 信息 的 搜索 与 抽取 ,根据 抽取 
结构 化 以 及 结构 化 数据 的 知识 网 络 构 建 是 医疗 大 数据 ”到 的 信息 进行 进一步 的 知识 挖掘 ;二 是 对 文本 进行 
分 析 和 临床 医学 研究 中 嗓 待 解决 的 重要 问题 。 全 面 结构 化 ,将 全 部 内 容 均 转化 为 能 够 被 计算 机 识别 

作为 一 种 专业 的 医学 文本 数据 ,超声 检查 数据 与 ”的 单词 ,进而 对 这 些 结构 化 的 单词 进行 关系 网 络 的 建 
一 般 的 日 常 自然 语言 和 文本 数据 相 比 ,呈现 出 以 下 独 。” 立 ,形成 知识 图 谱 , 从 而 通过 推理 等 方式 实现 对 知识 的 
有 特点 :总 体 语 言 风格 与 日 常用 语 差异 较 大 ,专业 词汇 。 挖掘 。 前 者 在 挖掘 对 象 明确 、 对 要 挖掘 知识 具有 你 
较 多 且 存 在 异形 词 。 上 述 问 题 给 超声 检查 数据 的 结构 。” 和 辑 性 认 知 的 场景 中 效率 较 高 ,但 对 于 未 知 知识 ,或 所 挖 
化 与 知识 网 络 构建 提出 了 巨大 挑战 。 传 统 自然 语言 掘 的 知识 并 不 具备 较 强 的 目标 性 , 则 需要 对 文本 进行 
析 与 结构 化 处 理 方法 在 此 场景 下 直接 应 用 ,无 法 得 到 全面 结构 化 分 解 , 采 用 第 二 类 知识 挖掘 方法 。 其 次 ,中 
较 高 精度 的 结果 ,难以 满足 相应 医疗 大 数据 研究 的 进 ， 文 文本 与 英文 文本 在 处 理 过 程 中 存在 一 定 差别 :英文 
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文本 是 以 单词 为 单位 ,单词 间 采 用 空格 符 分 开 ; 中 文 文 
本 是 以 字符 为 单位 ,字符 间 没 有 分 隔 符 。 在 此 背景 下 ， 
一 些 研 究 专门 关注 如 何 对 中 文 文本 进行 分 词 ” ,并 在 
此 基础 上 建立 相应 领域 具有 标注 的 词典 ” ,该 词典 可 
以 成 为 对 同类 中 文 文本 分 词 的 重要 依据 。 当 前 也 有 一 
些 分 词 工具 支持 中 文 文本 切 分 ,比如 Stanford NLP 、 
Jieba ”哈工大 LTP ”等 ,这 些 分 词 工具 对 于 一 般 日 常 


床 文本 的 注释 方法 ,并 构建 了 基于 NLP 模块 的 综合 语 
料 库 , 但 该 语料库 覆盖 率 和 注释 效率 均 较 低 ” 。 

将 电子 病历 自由 文本 转化 为 计算 机 可 处 理 识别 的 
规律 形式 ,是 知识 挖 气 工 作 的 前 提 , 往 往 需 要 多 种 自然 
语言 处 理 技术 综合 运用 。 当 前 中 文 医学 文本 结构 化 的 
常见 方式 是 将 数据 转化 为 < 指标 :指标 值 > 的 形式 , 主 
要 是 以 人 工 构建 的 指标 词 库 为 依据 ,通过 信息 抽取 的 方 


文本 能 取得 一 定 效果 ,但 对 专业 的 医疗 文本 来 说 效果 从 
佳 ,无 法 满足 对 文本 数据 进行 进一步 分 析 的 技术 要 求 。 
当前 已 有 一 些 专 门面 向 医学 领域 场景 基于 医学 
相关 文本 信息 与 知识 挖 气 方法 的 研究 ,如 基于 人 工 建 
立 的 语料库 ,针对 医学 领域 的 学 术 文 献 进行 中 英文 的 
文本 分 析 与 对 比 '”; 针 对 医学 学 术 文献 研究 引文 上 下 


式 , 从 非 结 构 化 的 文本 中 抽取 出 特定 形式 ”1 。 实 体 识 
别 是 文本 结构 化 中 的 重要 目标 ,有 研究 通过 深度 学 习 的 
方式 为 电子 病历 文本 的 实体 属性 赋予 标签 '” ,以 及 疾病 
名 称 ” 、 医 疗 事件 名 称 的 识别 等 。 然 而 上 述 工作 并 
没有 关注 实体 间 的 关系 ,但 若是 应 用 于 临床 决策 支持 或 
临床 数据 分 析 的 场景 ,往往 需要 能 够 客观 反映 数据 间 的 
逻辑 关联 。 有 研究 关注 病历 中 的 实体 与 实体 间 的 关系 ， 


英 内 容 的 信息 价值 问题 " ;有 依赖 于 字符 包 ,单词 包 、 
当 竺 嵌入 和 单词 度 入 ,构建 出 一 个 基于 序列 标记 的 中 
次 临床 笔记 推测 检测 系统 ,并 证 明了 分 词 在 中 文 临床 
自 获 语言 处 理 中 的 重要 性 " ;有 研究 通过 聚 类 的 方 
对 医学 文献 进行 挖掘 ,用 于 分 析 近年 来 的 研究 方向 
得 赵 点 '” ;有 通过 共 现 计数 分 析 临 床 变量 之 间 的 潜在 
依 肤 性 ,以 促进 改进 的 高 维 借 向 评分 特征 选择 的 发 
;还 有 针对 互联 网 医学 信息 资源 ,提出 了 一 种 基 
天 到 粒度 语义 化 描述 的 医学 文本 检索 算法 ,在 检索 结 
园 的 选择 方面 ,采用 相似 度 计算 方法 实现 对 相关 内 容 
的 短 配 2 ;也 有 专门 关注 互联 网 医疗 相关 文档 中 的 语 
又 咒 别 问题 '" 的 研究 。 然 而 ,上 述 研究 均 是 针对 公开 
的 医学 学 术 文献 或 专业 资料 进行 的 文本 数据 分 析 , 且 
部 分 研究 基于 英文 文献 进行 分 析 , 从 技术 实现 角度 来 
看 6 这 与 中 文 临床 病历 文本 分 析 挖掘 有 一 定 的 区 别 。 
电子 病历 文本 是 一 种 重要 的 医疗 文档 ,记录 了 临 
床 诊疗 过 程 中 的 各 种 检查 ,病情 .诊断 等 信息 。 近 年 来 
国内 开始 有 学 者 关注 对 电子 病历 的 文本 挖掘 工作 。 专 
门 针 对 中 文 电子 病历 文本 ,研究 了 在 利用 既 有 分 词 工 
具 基 础 上 的 分 词 方法 ,其 精度 最 高 可 达 78.06% ;有 
研究 以 电子 病历 文本 为 基础 ,挖掘 出 院 记录 部 分 潜在 
语义 5 ,但 该 研究 只 针对 四 种 治疗 方案 进行 了 评估 ， 
评估 结果 粒度 较 大 ,应 用 于 临床 实践 的 针对 性 不 强 ;还 
有 一 些 研究 基于 电子 病历 开展 临床 决策 支持 的 相关 探 
索 咯 2 。 这 些 研 究 的 重点 多 在 电子 病历 中 的 结构 化 
和 半 结 构 化 数据 ,或 是 较 有 针对 性 地 抽取 特定 关键 词 
等 信息 。 除 此 之 外 ,已 有 少量 针对 非 结 构 化 医疗 文 
本 的 研究 ,H，Wang 等 利用 自然 语言 处 理 方法 从 中 文 
肝癌 手术 记录 中 提取 了 肿瘤 相关 信息 的 发 展 和 评 
估 5 ;B，He 等 从 语法 和 语义 的 角度 提出 几 种 中 文 临 


探索 自动 构建 英文 电子 病历 文本 的 知识 图 谱 的 方 
法 ” ” 。 当 前 ,也 出 现 了 尝试 中 文 电子 病历 知识 图 谱 构 
建 的 研究 ” 。 然 而 中 文 电子 病历 知识 图 谱 构 建 的 研究 
刚刚 起 步 , 且 自动 化 程度 低 。 基 于 电子 病历 的 知识 图 谱 
是 临床 知识 推理 诊断 的 可 靠 基础 ,图 谱 中 节点 的 关系 
是 一 些 特定 的 语义 关系 ,如 检查 -疾病 ,疾病 -症状 的 
关系 等 。 超 声 检查 文本 是 电子 病历 的 重要 组 成 ,是 对 患 
者 所 检 部 位 超声 影像 的 详细 描述 ,上 述 的 特定 关系 并 不 
存在 。 因 此 ,本 文 关注 超声 文本 中 的 网 络 结构 ,刻画 超 
声 文本 中 “实体 -属性 - 值 " 间 的 连接 关系 ,以 及 实体 间 
的 层次 关系 ,有 机 构成 了 超声 知识 网 络 。 

本 文 提出 一 套 自动 化 处 理 流程 ,通过 分 词 处 理 、 内 
容 定位 、 结 构 化 识别 三 个 主要 步骤 ,实现 对 超声 检查 文 
本 的 全 面 结 构 化 。 该 结构 化 网 络 在 充分 保留 电子 病历 
言 息 的 同时 ,为 各 类 数据 分 析 需 求 葛 定 最 客观 的 数据 
基础 ,进一步 推动 相关 医学 研究 和 临床 护理 。 


2 超声 文本 数据 的 结构 化 与 知识 网 络 
构建 方法 
2.1 总体 流程 

本 文 提出 的 超声 检查 文本 结构 化 与 知识 网 络 构 建 
方法 ,主要 由 分 词 处 理 .内容 定位 ,结构 化 识别 三 个 主 
要 步骤 组 成 。 分 词 处 理 阶段 基于 对 超声 文本 分 词 特 
点 ,提出 分 词 矫 正 算法 ;内 容 定位 经 过 文本 聚 类 ,与 文 
本 间 相 似 短 句 定位 映射 ,实现 超声 文本 相同 语义 内 容 
的 归 类 映射 ;结构 化 识别 阶段 ,基于 前 述 处 理 提出 一 种 
实体 属性 值 识别 算法 ,并 根据 识别 结果 ,将 超声 文本 映 
射 到 网 络 结构 。 将 该 方法 输入 的 是 批量 的 超声 检查 自 
由 文本 ,输出 的 是 结构 化 后 的 数据 ,可 以 存储 在 关系 型 
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数据 库 中 。 图 1 给 出 了 方法 的 总 体 步骤 ,每 个 步骤 的 
具体 实现 过 程 在 后 续 小 节 中 详细 阐述 : 


输入 : 批量 的 超声 检查 文本 
基于 既 有 工具 的 |， 基于 词 共 现 分 析 
全 Pp 文 文本 分 词 的 分 词 校正 
处 = 
理 词 库 更 新 
看 
六 有 
标 
内 基于 超声 短文 本 相似 度 的 风格 聚 类 让 
| 8 
位 时 声 短文 本 的 相对 位 置 映射 文 
本 
3 
典 
由 实体 、 属 性 、 值 的 自动 识别 
化 | Sh 
> | 
并 别 je 网 络 结 构 映射 
和 sy 
< 直 输出 ; 超声 文本 的 知识 网 络 
OO 1 超声 文本 知识 网 络 构建 方法 
2 人 分 词 处 理 


?上 文 已 经 提 到 一 些 使 用 较 广泛 且 能 够 支持 中 文 分 
词 执 理 的 自然 语言 处 理工 具 ”” ,其 中 Stanford NLP 和 
Ji@ 济 是 开源 工具 ,本 研究 采用 Stanford NLP 来 进行 初 
步 芍 文本 切 分 处 理 。 在 处 理 日 常 语言 方面 , Stanford 
NBE 具 有 较 高 的 性 能 ,但 是 对 于 相对 专业 的 医学 文本 ， 
其 赴 理 能 力 欠 佳 ,而 高 质量 的 分 亲 结 果 对 临床 NIP 人 

至 关 重要 的 ""。 一 种 可 行 的 方式 是 增加 专业 词 
i 
共 现 分 析 的 方法 ,实现 专业 词 库 的 自动 补充 。 

对 于 Standford NLP 等 相关 分 词 工 具 , 一 般 情 况 
下 , 若 出 现 了 词 库 中 没有 的 新 间 ,会 通过 特定 算法 实现 
未 登录 词 的 切 分 。 对 于 非 理 想 状态 的 切 分 结果 ,存在 
三 种 情况 :一 是 分 词 算法 将 本 可 以 合并 在 一 起 的 字 / 词 
切 分 开 ,相应 的 切 分 结果 无 法 将 可 国定 搭配 的 词 /词组 
呈现 出 来 ,本 文 称 为 “过 切 分 ”; 另 一 种 情形 是 分 词 算 
法 把 本 应 该 切 分 为 两 个 或 者 更 多 的 字 / 词 ,判断 为 一 个 
词 /词组 的 内 容 , 本 文 称 为 “ 欠 切 分 ”; 第 三 种 情形 是 分 词 
工具 在 不 恰当 的 位 置 进行 了 切 分 ,将 原本 应 该 在 一 起 的 
词 分 开 , 而 不 应 该 在 一 起 的 词 切 分 在 了 一 起 ,本 文 称 为 
“ 误 切 分 "”。 由 于 超声 文本 中 存在 大 量 的 缩 略 词 和 特殊 
名 词 等 ,对 其 分 词 主要 是 “过 切 分 "( 见 表 1(a) ) 和 *“ 误 切 
分 ”( 见 表 1(b) ) 的 问题 。 对 切 分 结果 的 判断 ,应 该 考察 
切 分 后 的 词 /词组 其 是 否 正确 表达 了 文本 的 含义 。 
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表 1 非 理想 状态 的 文本 切 分 结果 举例 
(a) 过 切 分 
未 ! 见 1 明显 1 异常 (斯 坦 福 NLP) 
未 见 1 明 显 异 常 (理想 切 分 ) 


(b) 误 切 分 
腔 | 内 强 | 回 声 ( 斯 坦 福 NLP) 
腔 内 1 强 回声 (理想 切 分 ) 


对 于 过 切 分 的 处 理 , 本 文 在 研究 中 采用 了 基于 词 
共 现 分 析 的 分 词 校 正方 法 ,具体 通过 对 既 有 分 词 工 具 
得 到 的 初步 结果 进行 相 邻 词 的 共 现 分 析 , 识 别 和 判断 
非 理 想 情 况 的 切 分 ,并 实现 对 切 分 结果 的 校正 优化 。 
同时 ,针对 “过 切 分 ”情况 识别 出 的 新 词 ,也 可 以 对 “ 误 
切 分 ”情况 带 来 一 定 的 改善 。 如 ,存在 “ 强 回声 ”被 过 
切 分 为 “ 强 ”+ “回声 ”, 当 “ 强 回 声 ” 被 正确 识别 时 , 表 
1(b) 中 的 误 切 分 也 可 被 改善 。 

本 文采 取 的 词 共 现 频率 计算 方式 如 下 : 

令 5= | 了 肘 , 配 ,了 肥 上 ,3 代表 某 条 数据 记录 ,了 本 
表示 该 记录 的 第 i 个 词 。W, 在 文本 中 出 现 的 次 数 记 作 
词 频 Cnt。 

定义 1. 词 对 (w;,wi,i) 的 右 共 现 频 率 定义 为 
Fo = Cnt(wi, wi )/ TreaCnt(w; x) ,其 中 ,4 是 文 
本 中 所 有 位 于 w; 右边 的 词 的 集合 。 

定义 2. 词 对 (wwii) 的 左 共 现 频率 定义 为 
Pi = Cni(wi, sxrecsCnY ,si) ,其 中 ,B 是 
文本 中 所 有 位 于 词 w, ,左边 的 词 的 集合 。 

算法 1: 基 于 词 共 现 分 析 的 分 词 校 正 算法 的 核心 
伪 代 码 如 下 : 


输入 :文本 中 的 相 邻 词 对 
输出 :候选 新 词 词典 Dic 


for (w;,w;,!) do 
if > aCni(w xX) >1 then 
frer—Cnt, ,SyeaCnt( wx) 
if fren > = C then 


1 

2 

3 

4 

5. dic. append (w, ,w;,1 ) 
6 if 2 gCnti(X,wiri) >1 then 
ee 
8 if fre, > =C then 

9 dic. append ( ww; ,1 ) 

10. Delete repeated words in Dic 


ll. Word segmentation again with Dic 


针对 实验 所 采用 的 数据 及 实验 分 析 , 将 阐 值 C 设 
置 为 0.9, 即 右 共 现 频率 或 左 共 现 频 率 大 于 等 于 0.9 的 
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组 合 词 “ 瑟 卫 ,为 候选 新 词 。 根 据 实验 结果 分 析 , 阔 
值 为 0.9 时 能 过 滤 绝 大 多 数 干扰 项 ,同时 保留 较 多 的 
新 词 。 最 终 得 到 基于 超声 文本 的 领域 词典 Dic。 

算法 1 中 输入 的 词 对 (w,,w;, ) 满足 如 下 规则 : 阁 
两 个 词 由 标点 符号 隔 开 , 则 不 做 共 现 分 析 ; 第 2 和 第 6 
步 中 ,设置 某 个 词 出 现 次 数 大 于 1 才 做 共 现 统计 ,是 因 
为 只 出 现 一 次 的 词根 据 定义 1 和 2 计算 的 共 现 频率 一 
定 为 1 ,然而 这 些 词 对 并 不 符合 本 文 发 现 新 词 的 思想 ， 
且 绝 大 多 数 均 为 干扰 项 , 故 过 滤 。 对 于 一 个 专业 术语 
被 切 分 成 三 个 或 四 个 词 的 情况 ,本 文通 过 迭代 上 述 分 
词 算法 进行 处 理 。 例 如 ,“ 肝 内 外 胆管 "初始 被 分 为 
“ 肝 ”+“ 内 外 ”+ “胆管 ", 第 一 次 分 词 矫正 时 得 到 组 合 
词 “ 肝 内 外 ”, 加 入 词典 Dic 后 ,第 二 次 被 分 为 " 肝 内 外 ” 
十 胆管 "第 二 次 可 发 现 新 闻 * 肝 内 外 胆管 "。 在 实验 
分 村 中 发 现 ,超声 检查 文本 中 一 个 专业 术语 最 多 被 切 
全 成 不 超过 四 个 词 , 且 第 三 次 执行 时 可 发 现 的 新 词 数 


量 忆 经 很 少 , 故 迁 代 次 数 设置 为 3。 
2 人 @ 内 容 定位 

2J8-1 文本 聚 类 ”由 于 文本 聚 类 依赖 于 文本 之 间 的 
楂 侯 度 ,所 以 需要 计算 每 两 个 文本 之 间 的 相似 度 , 从 而 
得 到 文本 相似 度 和 矩阵, 进而 利用 相似 度 和 矩阵 实现 文本 
聚 疾 ,达到 提高 后 续 实体 、 属 性. 值 的 识别 能 力 ,提升 识 
别 精度 的 目的 。 

二 医学 文本 采用 的 都 是 相对 专业 和 直接 的 表述 方 
“尽管 医生 可 能 使 用 不 同 的 词汇 描述 同一 种 情形 ,但 
基 二 不 存在 一 词 多 义 的 情况 ,因此 文字 层面 的 相似 度 
即 琶 评估 内 容 的 相似 程度 。 本 文采 用 海 明 距离 来 评估 
每 @@ 例 超声 报告 与 其 它 报告 的 相似 程度 ,并 根据 不 同 
的 相似 度 对 这 些 超声 文本 进行 聚 类 , 即 同一 类 的 超声 
文本 具有 较 高 语言 相似 度 , 而 不 同类 别 的 超声 检查 文 
本 之 间 的 相似 度 较 低 。 又 因为 每 条 超声 检查 文本 记录 
较 长 (200 ~ 300 字 ), 且 数据 量 较 大 ,所 以 本 文采 用 
SimHash 算法 的 降 维 思想 ” ,再 将 得 到 的 相似 度 矩 
阵 通过 谱 聚 类 算法 聚 为 天 类 。 

算法 2 :超声 文本 聚 类 算法 的 伪 代 码 如 下 : 


二 


for each Record do 
s,—Finger Print ( Record) 

for each s, do 
d(si,s,)—HammingDistance(s, ) 3 ) 
sim(si,s;) =1—d(s,,s;)/hashBits 
M. append( sim) 

SpectralClustring(M,K) 


~ 人 UN 一 


聚 类 数目 参数 开 分 别 设置 为 3.4.5.6.7, 根 据 对 
4 000 条 数据 的 分 析 观 察 ,将 文本 分 为 五 类 时 能 有 效 将 
电子 病历 中 的 最 不 相似 的 电子 病历 分 开 , 且 便于 后 续 
实验 进行 ,于 是 本 文 在 对 实验 数据 处 理 时 决定 选用 天 
=5 的 聚 类 方案 。 
2.3.2 相似 短 名 定位 映射 ”在 对 超声 文本 进行 了 相 
似 度 聚 类 分 析 的 基础 上 ,进而 实现 各 类 超声 文本 中 短 
句 相 对 位 置 的 定位 与 映射 。 如 记录 a 与 记录 b 中 有 数 
量 相 近 的 若干 短 句 ,本 文 试图 建立 a[x] 与 b[y] 之 间 
的 映射 关系 ,映射 目的 在 于 识别 出 不 同 超声 文本 中 对 
同一 现象 的 描述 部 分 。 本 文 同样 采用 了 上 述 海 明 距 离 
来 评估 不 同 超声 报告 短 句 之 间 的 相似 程度 。 

算法 3 :超声 文本 中 的 短文 本 相对 位 置 映射 


中 对 每 条 记录 以 标点 符号 为 界 进行 短 句 切 分 ; 
@) 选 择 包含 短 句 数 目 最 多 的 记录 作为 第 一 条 记 


录 ; 
@ 计 算 第 i 条 记录 中 的 第 j 个 短 句 与 第 一 条 记录 
中 第 mn 个 短 句 的 相似 度 sim(s, ,s,) ,其 中 j=2,3,…， 


1; 


(9 提取 第 i 条 记录 中 的 与 第 一 条 记录 中 第 m 个 短 
句 相似 度 最 高 的 短 句 ; 

名 对 第 一 条 记录 中 的 所 有 短 句 做 相同 处 理 ,得 到 
相似 短 句 映射 表 。 


基于 上 述 算法 ,将 每 一 例 超声 检查 文本 间 相 似 度 
最 高 的 短 句 ,作为 相对 位 置 匹配 的 一 组 短 句 ,得 到 相似 
短 句 映射 表 。 短 句 相 对 位 置 的 映射 ,其 实 是 对 不 同 超 
声 检 查 病例 中 描述 相同 语义 内 容 的 短 句 的 识别 与 定 
位 ,为 后 续 实 体 、 属 性 \ 值 的 识别 葛 定 基础 。 
2.4 结构 化 识别 

在 实现 了 对 超声 检查 文本 内 容 定位 的 基础 上 ,可 进 
一 步 通过 提出 的 算法 实现 对 切 分 内 容 进 行 “ 实 体 、 属 性 、 
值 ”的 标记 ,从 而 建立 起 具有 层次 结构 的 超声 知识 网 络 。 
2.4.1 实体 \ 属 性、 值 的 识别 ”实体 和 属性 作为 相对 
客观 的 描述 对 象 ,在 超声 检查 文本 中 其 用 词 一 般 相 对 
固定 。 值 作为 实体 和 属性 的 具体 定量 或 定性 内 容 , 其 
往往 呈现 出 较为 丰富 的 内 容 。 且 由 于 中 文 的 书写 习 
惯 ,“ 值 "通常 出 现在 短 句 的 末尾 ,表现 为 数字 或 文字 
形式 ,然而 在 分 析 中 发 现 ,超声 文本 存在 一 些 “ 汉 字 
值 ” 出 现在 属性 之 前 ,如 “类 圆 形 / 无 回声 ”。 据 此 ,本 
研究 根据 具有 映射 标记 的 短 句 组 内 固定 词语 与 相对 变 
化 词语 的 规律 特征 ,识别 实体 、 属 性 以 及 属性 值 。 


— 
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算法 4: 实 体 、 属 性 \ 值 的 识别 


中 统计 组 内 短 句 频数 ,选取 出 现 次 数 最 多 的 短 句 
作为 标准 句 ; 

加 选取 sim(s,s,) >0.5 的 短 句 构成 一 个 集合 ; 

@ 对 集合 中 的 短 句 进行 分 词 ; 

@ 分 别 以 每 一 个 短 句 的 分 词 结果 为 基础 与 其 后 面 
的 短 名 分词 结 果 作 比较 ,如 后 者 为 前 者 的 子 集 , 则 将 后 
者 删除 ; 

对 @ 的 结果 集合 S 中 的 短 句 分 词 ,统计 每 个 词 
的 频数 Cni(w,) 及 其 相对 于 短 句 总 数 的 频率 了 ,其 中 
Cnt(w,) 最 大 且 f=0.8 的 词 可 认为 是 实体 ; 

@ 在 每 个 短 句 找 到 实体 出 现 的 位 置 o, 如 果 存 在 
判 鼎 o+ 1 若是 最 末尾 位 置 , 则 执行 (7) ,和 否则 执行 


二 判断 Cni(w,,,) <P, 若 是 则 为 值 ,否则 是 属性 ; 
判断 Cni(w,,1) >P 或 (Cni(w,,,) >Q ando+2 
,若是 则 为 属性 ,否则 为 值 。 


恨 据 本 文选 用 的 实验 数据 ,这 里 参数 P 和 0 设置 
=0=(S 中 包含 实体 的 短 句 数目 )/2, 此 时 取得 
的 识别 效果 。 
ON 根据 相似 短 句 定位 映射 的 结果 ,对 每 一 组 相似 短 
句 渤 行 实体 抽取 。 首 先 在 组 内 选取 重复 出 现 次 数 最 多 
的 短 句 作为 实体 抽取 的 标准 。sim(s,s) >0.5 是 为 了 
过 跨 坟 圾 数据 。 在 2. 2 节 自 定义 词典 Dic 的 基础 上 ， 
对 乌 集 合 中 的 每 一 个 短 句 进行 分 词 , 并 依次 以 其 分 词 
结 第 为 基础 ,与 其 后 面 的 短 句 分 词 结果 作 比 较 , 若 后 者 
为 前 者 的 子 集 则 认为 两 个 短 句 的 描述 一 致 ,将 后 者 短 
句 删 除 。 例 如 ,集合 中 有 下 列 短 句 :“ 肝 脏 大 小 形态 
可 ”肝脏 形态 可 ”肝脏 形 态 大 小 可 ”“ 肝 脏 形态 饮 
满 "* 肝 脏 形态 失常 “肝脏 形态 略 饱满 "“ 肝 脏 失 党 
态 ” ,它们 的 分 词 结果 记 为 A| 肝脏 ,大 小 ,形态 ,可 | ,B 
| 肝脏 ,形态 ,可 | ,Ci 肝脏, 形态 ,大 小 ,可 | 。B 和 均 
为 A 的 子 集 ,所 以 将 “肝脏 形态 可 ”“ 脏 形态 大 小 可 ”从 
集合 中 移 除 。 所 以 集合 变 为 | 肝脏 大 小 形态 可 ,肝脏 形 
态 饱 满 , 肝 脏 形态 失常 ,肝脏 形态 略 饮 满 ,肝脏 失 常态 | 。 
对 集合 中 剩 下 的 短 句 分 词 ,并 统计 Cnt(w,) 与 ,其 中 Cn 
(w,) 最 大 且 /=0. 8 的 词 认为 是 实体 。 识 别 出 实 体 后 根 
据 算法 4 的 (6)(7)(8) 进行 属性 和 值 的 识别 。 如 在 上 面 
例子 中 ,分 词 后 出 现 次 数 最 多 的 词 为 "肝脏 " 上 且 频率 为 
1.0, 所 以 “肝脏 " 记 为 实体 。 在 第 一 句 中 ,w,, 为 “大 
小 ”, 接 着 看 w,,，“ 形 态 ”,Cni(w,,,) >0 且 o+2ze, 所 
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以 “大 小 “形态 ” 记 为 属性 ,“ 可 ” 记 为 值 。 其 余 短 句 同 
理 ,最 终 可 得 到 实体 抽取 结果 示例 如 表 2 所 示 : 
表 2 实体 抽取 结果 示例 
实体 属性 值 
肝脏 大 小 形态 可 \ 他 满 . 略 饱满 ,失常 ,失常 太 


2.4.2 网 络 结构 映射 ”实体 .属性 、 值 识别 之 后 的 词 
也 就 构成 有 了 相应 标记 的 实体 库 .属性 库 与 属性 值 库 。 
对 于 腹部 超声 ,一 般 情 况 需 要 检查 : 肝 、 胆 、 胰 、 脾 、 肾 五 
个 器 官 。 据 此 场景 ,本 文 以 关键 词 为 依据 ,将 上 述 器 官 
作为 超声 文本 描述 对 象 的 分 隔 符 , 从 而 实现 对 不 同 器 
官 描述 的 平行 关系 区 分 ,在 同一 个 器 官 描述 部 分 ,相似 
映射 的 短 句 为 平行 关系 。 将 待 处 理 短 句 的 分 词 结果 映 
射 到 上 述 识别 结果 库 ,得 到 带 有 识别 标记 的 词 ,根据 标 
记 组 织 成 目标 结构 化 形式 。 本 文 提出 结构 化 存储 的 一 
般 形式 为 : (一 级 实体 [ ,二 级 实体 ][, 属 性][ ,属性 
值 ] ) ,这 种 形式 同时 刻画 了 短 句 内 “实体 -属性 - 值 ” 
间 的 连接 关系 ,与 短 句 间 实 体 的 层次 关系 。 其 中 ,一 级 
实体 主要 为 上 述 固 定 的 五 个 检查 器 官 ;“ 属 性 "或 “ 属 
性 值 可 能 出 现 为 空 的 情况 。 以 2.4.1 节 对 算法 4 举 
例 说 明 的 短 句 为 例 ,根据 表 2 的 识别 结果 ,其 部 分 结构 
化 存储 记录 为 “肝脏 -大 小 -可 ?>，“ 肝 脏 -形态 - 
可 ”,“ 肝 脏 -形态 - 饱满” 等。 本 文 提出 的 方法 流程 
中 ,超声 文本 的 结构 化 处 理 是 建立 相应 超声 知识 网 络 
的 基础 ,每 一 条 结构 化 存储 记录 ,都 是 知识 网 络 中 的 一 
条 路 径 。 最 终 ,可 以 通过 可 视 化 工具 (如 D3.js) ,将 上 
述 形式 存储 的 超声 知识 网 络 结构 展现 出 来 。 


3 ”数据 实例 测试 与 分 析 


基于 本 文 提出 的 超声 检查 文本 结构 化 方法 ,本 章 采 
用 真实 数据 对 算法 的 实现 过 程 进一步 进行 曾 述 与 验证 。 


3.1 数据 来 源 与 测试 方法 

本 研究 的 数据 来 源 于 某 大 型 三 甲 医院 超声 科 的 腹 
部 超声 检查 数据 ,总 数据 条 数 为 4 818 条 。 数 据 在 使 
前 经 过 了 脱 敏 处 理 , 隐 去 了 能 够 识别 出 患者 的 相关 
信息 ,包括 患者 姓名 、 患 者 名 .就 诊 时 间 等 内 容 。 只 保 
留 了 “超声 所 见 ” 字 段 。 研 究 随 机 选取 了 其 中 4 600 条 
数据 进行 训练 ,其 余 218 条 数据 进行 测试 ,训练 数据 与 
测试 数据 不 存在 交集 。 测 试 数据 同时 经 过 人 工分 词 与 
实体 标记 ,相关 性 能 表现 通过 人 工 标 记 结 果 与 本 文 所 
提出 方法 运行 得 到 结果 进行 对 比 得 到 。 
3.2 分 词 处 理 效 果 分 析 

对 上 述 218 份 随机 测试 数据 采用 经 2. 2 节 得 到 的 


I 
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领域 词典 进行 分 词 调整 。 图 2 展示 了 采用 Stanford 召回 率 = 正确 分 词 的 数目 /标准 分 词 总 数目 * 100% 


NLP 预 处 理 结果 与 基于 词 共 现 分 词 调整 结果 的 对 比 。 


肝脏 /:/ 形 态 / 异 常 /，/ 肝 / 右 / 叶 /最 大 / 斜 / 径 /10.2/Cm /，/ 
左 / 肝 / 上 /下 径 /4.7/Cm /，/ 包 膜 / 欠 /光滑 /，/ 边 缘 / 钝 /，/ 


实质 /回声 /增强 / 增 / 粗 /，/ 分 布 / 欠 / 均 匀 /，/ 
肝 /内 /血管 / 走 形 / 欠 /清晰 /，/ 肝 /内 /胆管 /无 /扩张 /。/ 


图 2(a) 


采用 Stanford NLP 的 分 词 结果 


肝脏 /:/ 形 态 /异常 /，/ 肝 右 叶 /最 大 斜 径 /10.2/Cm /，/ 
左 肝 /上 下 径 /4.7/Cm /，/ 包 膜 / 欠 /光滑 /，/ 边 缘 / 钝 /，/ 
实质 回声 /增强 / 增 粗 /，/ 分 布 / 欠 均 匀 /，/ 

肝 内 血管 / 走 形 / 欠 /清晰 /，/ 肝 内 胆管 /无 /扩张 /。/ 


图 2(b) 基于 词 共 现 分 


析 分 词 矫 正 的 分 词 结果 


进一步 ,基于 上 述 分 词 结果 ,以 人 工分 词 结果 为 标 
本 文 方法 与 通用 分 词 工具 的 结果 进行 分 析 , 得 到 
总 : 所 示 的 准确 率 、 召 回 率 和 Fl 指标 ,计算 公式 如 
下 二 从 这 些 指标 可 见 ,基于 词 共 现 分 析 的 方法 得 到 专 
典 , 有 效 提升 了 分 词 结果 的 精度 。 
准确 率 = 正确 分 词 的 数目 /分 词 总 数目 * 100% 


:202307. 
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图 4 超声 检 


F 值 = 准确 率 * 召回 率 *2/( 准 确 率 + 召 回 率 ) * 
100% 


1.00 
StandfordNLP 四 专业 词典 


0.90 
0.80 
0.70 
0.60 
0.50 
召回 率 F 值 


图 3 分 词 效果 对 比 


3.3 ”内容 定位 结果 与 展示 

在 分 词 的 基础 上 ,对 测试 数据 进行 内 容 定位 。 首 
先 根据 算法 2 ,对 实验 文本 进行 聚 类 。 图 4 展示 了 50 
例 超声 检查 文本 的 相似 度 结果 ,图 中 第 i 行列 的 方块 
代表 第 i 条 超声 检查 文本 和 第 j 条 超声 检查 文本 之 间 
的 相似 度 , 颜 色 越 深 表 明 相 似 程度 越 高 。 
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= 藤 :， 本 VE 从 x 
进一步 在 不 同类 别 的 文本 分 类 中 ,进行 短 句 定 射 的 部 分 结 
人 > 二 5 > 2 2 人 
位 , 即 算法 3。 图 5 给 出 了 在 聚 类 基础 上 内 容 定 位 映 
0 2 3 4 5 6 

肝脏 大 小 形态 可 表面 平滑 边缘 不 钝 肝 右 叶 无 回声 肝 内 血管 结构 显示 清晰 ” 门 脉 不 宽 血 流通 畅 
肝脏 大 小 形态 可 ”表面 平滑 边缘 圆 钝 实质 回声 弥漫 不 均 肝 内 血管 结构 显示 清晰 ” 门 脉 宽 壁 不 厚 
肝脏 大 小 形态 可 ”表面 平滑 ” 边缘 不 钝 实质 回声 均匀 肝 内 血管 结构 显示 清晰 。” 门 脉 不 宽 血 流 通畅 
肝脏 大 小 形态 可 ”表面 平滑 ”边缘 不 钝 肝 右 叶 无 回声 大 小 边界 清 血 流 通畅 
肝脏 形态 大 小 可 表面 平滑 ”边缘 不 钝 肝 内 限 局 性 低 回声 大 小 门 脉 不 宽 血 流 通畅 
肝脏 形态 大 小 可 表面 平滑 ”边缘 不 钝 实质 回声 欠 均 匀 右 叶 见 无 回声 门 脉 宽 血 流 通畅 
肝脏 形态 大 小 可 表面 平滑 ”边缘 略 钝 实质 回声 弥漫 增 粗 增 密 不 均 肝 内 血管 结构 显示 欠 清 晰 门 脉 宽 血 流通 畅 
肝脏 大 小 形态 可 表面 平滑 ”实质 回声 弥漫 增 粗 实质 回声 弥漫 增 粗 肝 内 血管 结构 显示 清晰 ” 门 脉 不 宽 血 流通 畅 
肝脏 大 小 形态 可 ”表面 平滑 ”边缘 不 实质 回声 增 粗 不 均 肝 内 血管 结构 显示 清晰 ” 大 小 血 流通 畅 


图 5 内 容 定位 部 分 结果 


3.4 ”结构 化 识别 结果 分 析 

在 进行 了 内 容 定位 的 基础 上 ,本 文 进一步 根据 算 
法 4 测试 了 其 结构 化 识别 能 力 。 识 别 结果 分 别 被 标记 
为 实体 .属性 . 值 三 类 。 从 测试 文本 中 随机 抽取 10 .50、 
100s150 .218 份 超声 检查 文本 记录 ,进行 结构 化 识别 后 


实体 、 属 性 及 属性 值 识别 的 准确 率 如 图 6 所 示 ; 
©O 0 下 

OO 0.90 Re - 

S, 0.80 er ss 
CW on . 

CN 0.60 

0.50 

>] “i 10 50 100 150 218 
S< 测试 文本 数量 

二 图 6 结构 化 识别 结果 准确 率 


二 从 图 6 中 可 以 看 出 ,识别 的 准确 率 与 测试 样本 的 
数 稻 相 关 , 在 一 定 范围 内 ,总 体 呈 随 样本 数量 增加 而 上 
升 的 趋势 。 医 生 在 书写 超声 检查 文本 时 遵循 一 定 的 书 
写 规范 , 实 休 和 属性 是 比较 有 限 的 检查 对 象 ,在 不 同 的 
病人 记录 中 会 反复 出 现 ,而 其 对 应 的 取 值 则 更 丰富 多 
变 。 本 文 提出 的 结构 化 识别 思想 正 是 基于 这 种 规律 ， 
所 以 当 文本 数量 大 时 上 述 规律 则 体现 的 更 明显 。 不 同 
对 象 的 检查 实体 相对 来 说 较 固定 ,所 以 表现 出 较 好 的 
识别 效果 ,而 属性 和 值 的 情况 更 为 复杂 。 
3.5 超声 检查 知识 网 络 可 视 化 

本 文 对 训练 数据 在 上 述 结构 化 识别 的 基础 上 , 通 
过 确定 实体 间 的 层次 关系 ,建立 了 如 图 7 所 示 的 超声 
检查 知识 网 络 , 该 网 络 充分 保留 了 超声 检查 知识 ,可 结 
构 化 存储 ,为 更 高 层次 的 智能 诊断 决策 应 用 场景 提供 
基础 。 
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4 总 结 与 展望 


本 文 提 出 了 一 种 面向 超声 检查 文本 的 结构 化 与 知 
识 网 络 构建 系统 方法 ,该 方法 是 一 套 具有 创新 性 的 整 
体 流程 ,通过 对 多 种 算法 的 综合 运用 ,实现 对 批量 医疗 
检查 文本 的 自动 结构 化 、 自 动 构建 网 络 关 系 ,可 为 电子 
病历 结构 化 研究 提供 一 个 新 思路 。 在 分 词 处 理 阶段 ， 
通过 对 相 邻 词 的 共 现 现象 分 析 , 更 新 并 建立 了 领域 词 
典 , 用 该 方法 进行 分 词 纠正 后 ,准确 率 相 比 现 有 分 词 工 
具 提 高 了 16%。 内 容 定 位 从 检查 记录 和 组 成 记录 的 
短 句 两 个 层次 上 ,根据 文本 相似 度 对 相同 检查 对 和 象 的 
描述 部 位 进行 分 组 ,以 提高 结构 化 识别 的 精度 。 通 过 
对 真实 数据 的 测试 与 分 析 发 现 , 本 文 实体 、 属 性 和 属性 
值 的 识别 算法 准确 度 随 着 样本 数量 的 增多 , 总体 上 号 
上 升 趋势 ,日 对 较 大 批量 的 数据 表现 出 了 较 好 的 识别 
效果 。 

本 文 的 研究 也 存在 以 下 不 足 :不 适用 于 小 量 数 
据 ,由 于 在 样本 数量 较 小 时 ,描述 同一 实体 的 一 组 相 
似 短 句 ,其 属性 和 值 相对 固定 与 变动 的 规律 不 易 体 
现 , 易 导致 算法 4 错误 识别 ,这 是 本 文 算法 的 局 限 性 ; 
@) 算 法 4 中 的 参数 已 和 @, 针 对 不 同 的 实验 文本 可 能 
需要 调整 和 训练 。 改 进 上 述 问 题 是 我 们 今后 的 工作 
方向 。 

今后 工作 可 以 在 本 文 所 提出 相关 方法 的 基础 上 ， 
研究 对 更 多 类 型 医学 文本 的 结构 化 与 知识 网 络 构 
建 ,从 单一 类 型 医疗 文本 数据 的 知识 网 络 构建 ,发 展 
成 为 全 景 式 的 医疗 文本 的 结构 化 与 知识 网 络 构建 ， 
为 充分 挖掘 医疗 文本 中 隐藏 的 知识 奠定 数据 治理 基 
础 。 
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Abstract. [Purpose/significance | Ultrasound examination is an important basis for diagnosis, but the major examina- 


tion data is in the form of text. So, based these data, this paper studies a method that can automatically structure natural 


language texts and construct knowledge network, which lays the data foundation for further mining clinical knowledge hidden 


in EMR. [Method/process| This paper improved the application of natural language processing technology in ultrasonic, 


including three main steps: segmentation processing, content location and structured recognition, to realize the segmentation 


and labeling of ultrasonic text, and on this basis, the ultrasound examination knowledge network was established. [ Result/ 


conclusion | The test results of real data show that the method for structuring ultrasound texts proposed in this paper has bet- 


ter performance. This method can realize the automatic construction of knowledge network of batch ultrasound texts, and can 


reflect the potential knowledge of hierarchical relationship and attribute structure of structured content in ultrasonic text. 
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